李萌:关于DeepSeek这个现象级创新的几点观察

李萌

全国政协委员

科学技术部原副部长


非常感谢主办方的邀请,刚才听了各位专家的发言我受益匪浅,很受启发。

刚才石院长发布了《数字经济与数字金融形势分析(2024年度)》报告,我认为这个报告的态势感知能力非常强,特别是对一些新的技术和框架在数字金融领域的应用分析得到位,对于未来形势走向的判断也很接地气,是一个优秀的形势分析报告。

蛇年春节是妥妥的AI元春节,全世界都在热议DeepSeek。这只是最近中国AI乃至科技界涌现爆发的众多成就之一。目前大模型发展从总体上来看,中国仍处于追赶美国的状态;从具体的领域上来看,中国和美国是交替前行的,中国和美国的企业也是在交替前行的。除了DeepSeekV3和R1外,去年年底今年年初还有一批大模型冲到了世界测评榜的前面,包括Kimi1.5和1.6、MiniMax-01、阿里的QWEN2.5等,科大讯飞和腾讯等厂商都有非常好的大模型推出,科大讯飞难能可贵的是用纯国产GPU训练出来的。这类大模型都是基于深度神经网络框架,并没有颠覆现有的Transformer架构。如果把Transformer框架看成发动机的原理,DeepSeek-R1就是在这个原理基础上做出来的具体引擎,本质上是一个应用模型。Transformer框架是谷歌2017年提出的,到现在为止一直延续着Scaling Law“大力出奇迹”的方向,这个技术路线被证明目前依然有效。

DeepSeek进行了一系列的创新,主要是引入新的架构、训练策略以及极致的软硬协同优化来提升模型性能,提升推理效率,降低训练成本。前段时间,我在网络会议上听了上海人工智能实验室的乔宇、浙大的吴飞、清华的陶建华等几位专家的讨论交流,长了很多知识,他们对DeepSeek几个方面的创新给予了高度评价,得到的信息是DeepSeek闪亮的创新点包括:混合专家模型(MOE架构)、隔离部分专家作为共享专家;多头潜在注意力机制(MLA),提高推理效率;多Token预测(MTP),同时预测多个Token,并行处理;混合精度训练框架(FP8),这是一种更低精度的训练格式,相比传统的FP16、32更节省显存和计算资源,同时还能保持一定的精度;高效的双管训练框架(DualPipe),一种高效流水线并行算法,实现了近乎于零开销的跨节点通信;软硬件结合的底层优化(PTX),绕过CUDA系统,在CUDA系统与硬件之间的边缘直接调取算力和数据。对这一点我特别赞赏,DeepSeek使用了ptx编程来优化计算和通信的并行,显著提升了计算效率。乔宇介绍PTX是一个比CUDA更底层的汇编语言,也是英伟达提供的,编程相对更复杂,熟悉的研发人员不多。所以说DeepSeek不是完全放弃了CUDA,而是在部分核心环节使用了PTX提升计算效率。我这些只是一点粗略的理解,可能并未反映DeepSeek创新的全貌。DeepSeek的两个重要模型,V3是对标GPT-4o的语言模型,R1是对标GPT-o1的推理模型。DeepSeek这些模型能力达到了世界一流水平,核心优势通过模型、软硬协同优化把训练和推理成本降低很多。有些评价DeepSeek认为R1没有完全超过GPTo1,与o3还有差距,说的也是实际,这是从更长远的追求出发作出的。而企业界则用大量接入的行动来证明DeepSeek的现实意义,包括腾讯这样的大厂。国际上业内对DeepSeek的创新给予了更高的评价。

DeepSeek在社会上引起广泛关注的一个重要原因它引发了价值重估,他的出现对风投企业的估值、未来风投投向以及对中美之间的差距评价都产生了巨大的影响,原来美国有些人认为算力差距就等于模型差距,现在这个魔咒被打破了,刚才全国社保基金理事会陈文辉副理事长也讲了这个问题。

DeepSeek还有一个特别有价值的闪光点是开源。Facebook首席人工智能科学家杨立昆讲,DeepSeek最大的价值是开源超越了闭源。中国比较擅长对科技的应用,但是如果没有开源,根本就谈不上运用。

从DeepSeek这个现象级创新出发,我向大家报告以下几点观察。

一是我们可能正在迎来互联网时代之后的新一波初创企业涌现浪潮。这次AI产业化、产业AI化全方位推进,且是与实体经济深度融合的创新创业,人工智能+将催生大量的基于大模型和具身智能的初创企业。政府、业界和金融机构要为迎接这个浪潮做好准备,提供良好环境。前不久中国银行及时出台全产业链支持人工智能发展行动是十分有远见的。人工智能初创企业在十年前曾有一个小高潮,创建了商汤、旷视等一批科技企业,与十年前相比,创新应用现在已经渗透到经济、社会、产业、科研等各个方面。要把年轻人的初创企业和大厂推动的初创企业作为一个重点,这些初创企业在细分领域的创造力是惊人的。有一大批年轻的创新人才我们才有创新自信的底气,有大量初创企业持续涌现我们的产业在未来才能更加生机勃勃。

二是坚持长期主义,深耕算力不放松。目前中美两国主流的技术路线还没有脱离“大力出奇迹”。DeepSeek所谓的“小力出奇迹”虽然缓解了算力焦虑,但没有否定“大力出奇迹”,“小力出奇迹”只是减少了一定算力的形象说法,但仍需要大算力支撑。所以我们不能放松算力建设。美国现任总统特朗普刚上任就推动星际之门,在智能领域投入5000亿美元,重点是算力。法国在算力领域投资了1000亿欧元。孙正义最近提出“三个10”的设想,即在12-18个月之内算力芯片数量、模型性能、计算能力都增长10倍,一个周期之后再启动一轮新的12-18个月循环,实现10倍的增长,这就说明算力很重要,发展算力需要资金支持,在这个领域金融机构大有可为。

三是鼓励创新,增强创新自信。要继续坚持创新框架、算法和应用,包容多条技术路径。DeepSeek团队通过创新开辟高性能低成本路径,给我们一个重要启示就是创新会使一切皆有可能。现在有白盒子与黑盒子之争,大模型与世界模型之争,大数据小任务与小数据大任务之争,开源与闭源之争,技术发展与社会治理顺序先后之争,这些学术之争是正常的,只要持开放态度对人工智能发展就是有利的。我觉得有两条甚至多条技术路径同时存在比只有一条要好,要包容每一个具体的路径,不要过早下结论,现在主流技术路线是“大力出奇迹”,而且目前这条技术路线成果更大,但同时也不要放弃其他的技术路线,要给他们时间。

今天就讲这些想法供大家参考,一孔之见请批评指正。

粤海校区:深圳市南山区南海大道3688号 

丽湖校区:深圳市南山区学苑大道1066号电话:0755-26536114

版权所有©️深圳大学 粤ICP备11018045号

联系方式

电话:0755-23996606

邮箱:gifts@szu.edu.cn

官方微信公众号